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^ ?m, Ab u traCt: THe i , nvention relates to a data Processing device with a data processing logic cell field and at least one sequential 
^ CPU, wherein a coupling of the sequential CPU to the data processing logic cell field, for data exchange, particularly in block form 
^ by means of lines leading to a cache memory is provided. 

(57) Ziisanunenfassung: Die Erfindung betrifft eine Datenverarbeitungsvorrichtung mit einem Datenverarbeitungslogikzellenfeld 
O " nd zunu " de i s i t einerSequenziell-CPU. Hierbei ist vorgesehen, dass eine Ankopplung der Sequenzielll-CPU und des Datenverarbei- 
^ tungslogikzellenfeldes zum Datenaustausch in insbesondere blockweiser Form durch zu einem Cache-Speicher filhronde Leitungen 
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Titel: Verfahren und Vorrichtung fur die 

Datenverarbeitung 

Beschreibung 

Die vorliegende Erfindung betrifft das oberbegrif f lich Bean- 
spruchte und befasst sich somit mit Verbesserungen bei der 
Verwendung von rekonf igurierbaren Prozessortechnologien fur 
die Datenverarbeitung. 

Verwiesen wird bezuglich des bevorzugten Aufbaus von Lo- 

gikzellenfeldern auf die XPP-Architektur und vorverdf f erit- 

lichte sowie jungere Schutzrechtsanmeldungen des vorliegenden 

Anmelders, die zu Of f enbarungszwecken vollumf anglich einge- 

gliedert sind. Erwahnt seien somit insbesohdere die 

DE 44 16 881 Al , DE 197 81 412 Al, DE 197 .81 483 Al, 

DE 196 54 84.6 Al, DE 196 54 593 Al, DE 197 04 044.6 Al, 

DE 198 80 129 Al, DE 198 61 088 Al, DE 199 80 312 Al, 

PCT/DE 00/01869, DE 100 36 627 Al, DE 100 28 397 Al, 

DE 101 10 530 Al, DE 101 11 014 Al, PCT/EP 00/10516, 

EP 01 102 674 Al, DE 198 80 128 Al, DE 101 39 170 Al, . 

DE i98 09 640 Al, DE. 199 26 538.0 Al, DE 100 50 442 Al, sowie 

die PCT/EP 02/02398, DE. 102 40 00Q, DE 102 02 044, 

DE 102 02 175, DE 101 29 237,. DE 101 42 904, DE 101 35 210, 

EP 01 129 923, PCT/EP 02/10084, DE 102 12 622, DE 102 36 271, 

DE 102 12 621, EP 02 009 868, DE. 102 36 272, DE 102 41 812, 

DE 102 36 269, DE 102 43 322, EP 02 022 692, ebe'nso wie die 

EP 02 001 331 und die EP 02 027 277. 

Ein Problem bei herkommlichen Ansatzen zu rekonf igurierbaren 
Technologien besteht dann, wenn die Datenverarbeitung primar 
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auf einer sequenziellen CPU miter Hinzuziehung eines konfigu 
rierbaren Datenverarbeitungslogikzellenfeldes Oder derglei- 
chen erfolgen soil und/oder eine' Datenverarbeitung gewtinscht 
ist, in der viele und/oder umf angreiche sequenziell auszufuh 
rende Verarbeitungsschritte vorliegen. 

Es sind Ansatze bekannt, die sich damit befassen, wie eine 
Datenverarbeitung sowohl auf einem konf igurierbaren Datenver 
arbeitungslogikzellenfeld ais auch auf einer CPU erfolgen 
kann . 

So ist aus der WO 00/49496 ein Verfahren zum Ausfuhren eines 
Computerprogrammes mit einem Prozessor bekannt, der eine kon 
f igurierbare funktionelle Einheit umfasst, die in der Lage 
ist, rekonfigurierbare Anweisungen auszufuhren, deren Effekt 
zur Laufzeit durch Laden eines Konf igurationsprogrammes rede- 
finiert werden kann, wobei das Verfahren die Schritte um- 
fasst, dali Kombinationen rekonf igurierbarer Anweisungen aus- 
gewahlt, ein respektives Konf igurationsprogramm fiir. jede Kom- 
bination erzeugt und das Computerprogramm ausgeftihrt wird. 
Dabei soil jedes Mai, wenn eine Anweisung aus einer der Kom- 
binationen wahrend der Ausfuhrung gebraucht wird und die kon- 
figurierbare funktionelle Einheit nicht mit dem Konfigurati- 
onsprogramm fur diese Kombination konf iguriert ist, das Kon- 
figurationsprogramm far alle der Anweisungen der Kombination 
in die konf igurierbare funktionelle Einheit geladen werden. 
Weiter ist aus der WO 02/50665 Al eine Datenverarbeitungsvor- 
richtung mit einer konf igurierbaren. funktionellen Einheit be- 
kannt, wobei die konf igurierbare funktionelle Einheit dazu 
dient, eine Anweisung gemaG einer konf igurierbaren Funktion 
auszufuhren. Die konf igurierbare funktionelle Einheit weist 
eine Vielzahl von unabhangigen. konf igurierbaren Logikblocken 
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zum Ausftthren programmierbarer Logikoperationen auf , urn die 
konfigurierbare Funktion zu implementieren. Konf igurierbare 
Verbindungsschaltkreise sind zwischen den konf igurierbaren 
Logikblocken und sowohl den Eingangen als auch den Ausgangen 
5 der konf igurierbaren funktionellen Einheit vorgesehen. Dies 
erlaubt eine Optimal is ie'rung der Verteilung von Logikf unktio- 
nen tlber die konf igurierbaren Logikblocke. 

Ein Problem bei herkommlichen Architekturen besteht dann, 
10 wenn eine Ankopplung erfolgen soli und/oder Technologien wie 
Datastreaming, Hyper threading, Multithreading und so weiter. 
in sinnvoller und Performance steigernder Weise ausgenQtzt 
werden sollen. Eine Beschreibung einer Architektur findet 
sich in Exploiting Choice: Instruction Fetch and Issue on 
15 Implementable Simultaneous Multi-Threading Processor", Dean 
N. Tulson, Susan J. Eggers et al, Proceedings of the 23th an- 
nual international Symposium on Computer Architecture, Phil- 
adelphia, May 1996. 

20 Die Hyperthreading- und Multithreading-Technologien sind im 
Hinblick darauf entwickelt worden, dass moderne Mikroprozes- 
soren ihre Leistungsfahigkeit aus vielen -spezialisierten und 
tiefpipelineartig angesteuerten funktionellen Einheiten und . 
hohen Speicherhierarchien gewinnen, was hohe Frequenzen in 

25 den Funktionskernen erlaubt. Durch die strerig hierarchischen 
Speicheranordnungen gibt es jedoch bei Fehlzugrif fen auf 
Caches auf Grund des Unterschieds zwischen Kern- und Spei- 
cherfrequenzen grofiere Nachteile, da viele Kerntaktzyklen 
vergehen, bis Daten aus dem Speicher ausgelesen sind. Zudem 

30 treten Probleme auf bei Verzweigungeh und insbesondere falsch 
vorhergesagten Verzweigungen. Es ist daher vorgeschlagen wor-^ 
den, als sogenanntes SMT, simultaneous multi-threading- 
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Verfahren zwischen verschiedenen Tasks immer dann zu wech- 
seln, wenn eine Anweisung nicht ausgefuhrt werden kann oder 
nicht alle funktionellen Einheiten verwendet. 

Die beispielhaft erwahnte Technologie der vorzitierten Nicht - 
Anmelder-Dokumente zeigt" etwa eine Anordnung, bei der zwar 
Konfigurationen in ein konf igurierbares Datenverarbeitungslo- 
gikzellenf eld geladen werden konnen, bei welchen allerdings 
der Datenaustausch zwischen der ALU der CPU. und dem konfigu- 
rierbaren Datenverarbeitungslogikzellenfeld, sei es ein FPGA, 
DSP oder dergleichen, (iber die Register erfolgt. Mit anderen 
Worten mtlssen Daten aus einem Datenstrom zunachst sequenziell 
in Register geschrieben werden und. dann sequenziell wieder in 
diesen abgelegt werden. Auch ist ein Problem, dann gegeben, 
wenn ein Zugriff auf Daten von extern erfolgen soil, da 
selbst dann noch Probleme beim zeitlichen Ablauf der Daten- 
verarbeitung im Vergleich zur ALU und bei der Zuweisung von 
Konfigurationen und so weiter bestehen. Die herkommlichen An- 
ordnungen, wie sie aus den Nicht -Anmelder-eigenen Schutzrech- 
ten bekannt sind, werden unter anderem dazu verwendet, Funk- 
tionen iiu konf igurierbaren Datenverarbeitungslogikzellenf eld, 
DFP, FPGA oder dergleichen abzuarbeiteri, die nicht effizient 
auf der CPU-eigenen ALU abzuarbeiten sind. Damit wird das 
konfigurierbare Datenverarbeitungslogikzellenf eld praktisch 
verwendet, um benutzerdef inierte Opcodes zu ermbglicheh, die 
eine ef fizientere Abarbeitung von Algorithmeh ermoglichen, 
als dies auf de'iri ALU-Rechenwerk der CPU phne konfigurierbare 
Datenverarbeitungslogikzellenf eldunterstutzung moglich ware. 

Im Stand der Technik ist, wie erkannt wurde, die Ankopplung 
demnach im Regelfall wortbasiert, nicht jedoch blockbasiert, 
wie es zur datenstromenden Verarbeitung erforderlich ware. Es 
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ist zunachst wiinschenswert, eine effizientere Datenverarbei- 
tung zu ermeglichen, als dies mit einer engen Ankopplung iiber 
Register der Fall ist. 

Eine weitere MQglichkeit zur Verwendung von Logikzellenfel- 
dern aus grob- und/oder feingranular gebauten Logikzellen und 
Logikzellenelementen besteht in einer sehr losen Ankopplung 
eines solchen Feldes an eine herkommliche CPU und/oder einen 
CPU-Kern bei eingebetteten Systemen. Hierbei kann ein her- 
kommliches, sequenzielles Programm auf einer CPU oder der- 
gleichen laufen, beispielsweise ein in C, C++ oder derglei- 
chen geschriebenes Programm, wobei von diesem Aufrufe einer 
Datenstromverarbeitung auf dem fein- und/oder grobgranularen 
Datenverarbeitungslogikzellenfeld instantiiert werden. Pro- 
blematisch ist dann, dass beim Programmieren fur dieses Lo- 
gikzellenfeld ein nicht in C oder einer anderen sequenziellen 
Hochsprache geschriebenes Programm fur die Datenstromabarbei- 
tung vorgesehen werden muss. Erwiinscht ware hier, dass sowohl 
auf der herkommlichen CPU-Architektur als auch auf einem mit 
diesen gemeinsam betriebenen Datenverarbeitungslogikzellen. 
feld C-Programme oder dergleichen abzuarbeiten sind, das 
heifit, dass insbesondere mit dem Datenverarbeituhgslogikzel- ' 
lehfeld in quasi sequenzieller Programmabarbeitung dennoch 
eine Datenstromf ahigkeit erhalten. bleibt, wahrend es simultan 
insbesondere auch mSglich bleibt, dass ein CPU-Betrieb in 
nicht zu loser Ankopplung mSglich ist. Es ist auch bereits 
bekannt, innerhaib einer Datenverarbeitungsiogikzellehfeidan- 
ordnung, wie- sie insbesondere aus PACT02. (DE196 51 075.9-53, 
WO 98/26356), PACT 04 (DE 196 54 846.2-5.3, WO 98/29952), 
PACT08 , (DE 197 04 728.9, WO 98/35299) PACT 13 (DE 199 26 
538.0, WO 00/77652) PACT 31 (DE 102 12 621.6-53, PCT/EP 
02/10572) wobei bekannt ist, auch eine sequenzielle Datenver- 
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arbeitung innerhalb des Datenverarbeitungslogikzellenf eldes 
vorzusehen. Hierbei wird dann allerdings innerhalb einer ein- 
zelnen Konf iguration, beispielsweise urn Ressourcen zu sparen, 
eine Zeitoptimierung zu erzielen und so weiter, eine partiel- 
le Abarbeitung erzielt, ohne dass diese bereits dazu ftihrt, 
dass ein Progranunierer ein Stuck Hochsprachencode automatisch 
leicht ohne weiteres auf ein Datenverarbeitungslogikzellen- 
feld umsetzen kann, wie dies bei herkOmmlichen Maschinenmo- 
dellen fur sequenzielle Prozessoren der Fall ist. Die Umset- 
zung von Hochsprachencode auf Datenverarbeitungslogikzellen- 
felder nach Prinzipien der Modelle far sequenziell arbeitende 
Maschinen ist weiterhin schwierig. . 

Aus dem Stand der Technik ist weiter bekannt, dass mehrere 
15 Konfigurationen, die eine jeweils unterschiedliche Funktions- 
weise von Arrayteilen bewirken, simultan auf dem Prozessbr- 
feld (PA) abgearbeitet werden konnen und dass ein Wechsel von 
einer oder einigen der Konf iguration (en) ohne Storung anderer 
zur Laufzeit erfolgen kann.. Es sind Verfahren und in Hardware 
implementierte Mittel zu deren Umsetzung bekannt, wie sicher- 
gestellt werden kann, dass dabei ein Abarbeiten vOn auf das 
Feld zu ladenden Teilkonf igurationen ohne Deadlock erfolgen 
kann. Verwiesen wird hierzu insbesonder.e auf die die Filmo- 
Technik betreffenden Ahmeldungen. PACT 05. (DE 196 54 593.5-53, 
25 WO 98/31102) PACT10 (DE 198 07 872.2, WO 99/44147, ' 
WO 99/44120) PACT 1 3 (DE 199 26 538.0, WO 00/77652^, PACT 17 
(DE 100 28 397.7, WO 02/13000); PACT31 (DE 102 12 621.6, 
WO 03/036507 ) . Diese Technologie ermoglicht in gewisser Wei- 
se bereits eine Parallelisierung und, bei entsprechender Ge- 
staltung und Zuordnung der Konf igurationen, auch eine Art 
Multitasking/Multithreading und zwar dergestalt, dass eine 
Planung, das heifit ein Scheduling und/oder eine Zeitnutzungs- 
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planungsst'euerung vorgesehen ist. Es sind also aus dem Stand 
der Technik schon Zeitnutzungsplanungssteuerungsmittel und - 
verfahren per se bekannt, die, zumindest unter entsprechender 
Zuordnung von Konf igurationen zu einzelnen Aufgaben und/oder 
Faden zu Konf igurationen und/oder Konf igurationsfolgen, ein 
Multitasking und/oder Multithreading erlauben. Die Verwendung 
solcher Zeitnutzungsplanungssteuermittel, die im Stand der 
Technik zur Konf igurierung und/oder Konf igurationsverwaltung 
verwendet wurden, zu Zwecken des Scheduling von Tasks, 
Threads, Multi- und Hyperthreads wird per se als erfinderisch 
angesehen. 

Wunschenswert ist auch zumindest gemafi einem Teilaspekt in 
bevorzugten Varianten, moderne Technologien der Datenverar- 
beitung und Programmabarbeitung wie Multitasking, Multithrea- 
ding, Hyperthreading unterstiitzen zu konnen, zumindest in be- 
vorzugten Varianten einer Halbleiterarchitektur . 

Der Grundgedanke der Erfindung besteht darin, Neues fur die 
gewerbliche Anwendung bereitzustellen. 

Die Losung dieser Aufgabe wird in unabhangiger Form bean- 
sprucht. Bevorzugte Ausfiihrungsf orraen finden sich in den Un- 
teranspruchen. 

Ein erster wesentlicher Aspekt der vorliegenden Erfindung ist 
somit darin zu sehen, dass dem Datenverarbeitungslogikzellen- 
feld Daten im Ansprechen auf die Ausfuhrung einer Ladekonfi- 
guration durch das Datenverarbeitungslogikzellenf eld zuge- 
ftthrt werden und/oder Daten aus diesem Datenverarbeitungslo- 
gikzellenf eld weggeschrieben (STORE) werden, indem eine 
STORE-Konfiguration entsprechend abgearbeitet wird. Diese La- 
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de- und oder Speicherkonf igurationen sind dabei bevorzugt 
derart auszugestalten, dass innerhalb des Datenverarbeitungs- 
logikzellenfeldes direkt oder indirekt Adressen jener Spei- 
cherstellen generiert werden, auf welche ladend und/oder 
speichernd direkt oder indirekt zugegriffen werden soil. Es 
ist durch diese Einkonf iguration von Adressgeneratoren inner- 
halb einer Konf iguration moglich, eine Vielzahl von Daten in 
das Datenverarbeitungslogikzellenfeld einzuladen, wo sie ge- 
gebenenfalls in internen Speichern (iRAM) ablegbar sind 
und/oder wo sie in internen Zellen wie EALUs mit Registern 
und/oder dergleichen eigenen Speichermitteln abgelegt werden 
kennen. Die Lade- beziehungsweise Speicherkonf iguration er- 
mOglicht somit ein blockweises und nahezu datenstromartiges, 
insbesondere gegenuber Einzelzugrif f vergleichsweises schnel- 
les Laden von Daten und es kann eine solche Lade-Konf igura- 
tion ausgefuhrt werden vor einer oder mehreren tatsachlich 
Daten auswertend und/oder verandernd abarbeitenden Konf igura- 
tion (en), mit welcher/n die vorab geladenen Daten verarbeitet 
werden. Das -Datenladen und/oder -schreiben kann dabei typisch 
bei grofien Logikzellenf eldern in kleinen Teilbereichen der- 
selben geschehen, wahrend andere Teilbereiche mit anderen 
Aufgaben befaBt sind. . Bezuglich dieser und anderer Besonder- 
heiten der Erfindung wird auf Fig. l.verwiesen. Bei der in 
anderen ver6f f entlichten Dokumenten des Anmelders beschriebe- 
nen Ping-Pong-artigen Datenverarbeitung, bei der auf beiden 
Seiten eines Datenverarbeitungsf eldes Speicherzellen vorgese- 
hen sind, wobei die Daten in einem ersten Verarbeitungs- 
schritt von dem Speicher auf der einen Seite durch das Daten- 
verarbeitungsf eld zum Speicher auf der anderen Seite stromen, 
dort die beim ersten Felddurchstromen erhaltenen Zwischener- 
gebnisse im zweiten Speicher abgelegt werden, gegebenenfalls 
das Feld umkonfiguriert wird, die Zwischenergebnisse dann fur 
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die Weiterverarbeitung zurtickstromen usw., kann etwa eine 
Speicherseite durch eine LOAD-Konf iguration in einem Array- 
Teil mit neuen Daten vorgeladen werden, wahrend aus der ge- 
genuberliegenden Speicherseite Daten mit einer STORE- 
Konfiguration in einem anderen Array-Teil weggeschrieben wer- 
den. Dieses simultane LOAD/STORE-Vorgehen ist im iibrigen auch 
ohne raumliche Speicherbereichstrennung moglich. 

Es sei noch einmal erwahnt, dass es verschiedene Moglichkei- 
ten gibt, interne Speicher mit Daten zu fiillen. Die internen 
Speicher konnen insbesondere vdrher durch separate Ladekonfi- 
gurationen unter Verwendung von datenstromartigem Zugreifen 
vorgeladen werden. Dies entsprichte' dem Gebrauch als Vektor- 
register, wobei es zu Folge hat, dass die internen Speicher 
15 immer zumindest partiell ein Teil des nach auJien sichtbaren 
Zustandes der XPP sein werden und daher bei Kontextwechseln 
gespeichert bzw. zuruckgeschrieben werden mtissen. Alternativ 
und/oder zusatzlich konnen die internen Speicher (iRAMs) 
durch separate „Lade-.Instruktionen« auf die CPU geladen wer- 
den.. Dies fuhrt zu verringerten Ladevorgangen durch Konfigu- 
rationen und kann eine breitere Schnittstelle zur Speicher- 
hierarchie bewirken. Wiederum wird wie auf Vektorregister zu- 
gegriffen. 
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Das Vorladen kann auch als Burst aus dem Speicher durch eine 
Anweisung des Cache-Kontrollers bestehen. Uberdies ist es 
moglich, und. dies ist. als besonders leistungsf ahig in vielen 
Fallen bevorzugt, den Cache dahingehend so auszubilden, dass 
eine bestimmte Vorladeanweisung eine bestimmte Speicherfla- 
che, die durch die Startadresse und -gr6Be bzw. Schrittweite 
(n) definiert ist, auf den internen Speicher (iRAM) abbildet . 
Wenn alle internen RAMs zugeordnet sind, kann die nachste 
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Konf iguration aktiviert werden. Die Aktivierung . bringt ein 
Abwarten mit sich, bis alle burst-artigen Ladevorgange abge- 
schlossen sind. Dies ist jedoch insoweit transparent, wenn 
die Vorladeanweisungen lange genug vorher ausgegeben werden 
und die Cache-Lokalisierung nicht durch Interrupts oder 
Taskwechsel zerstort wird. Es kann dann insbesondere eine 
„Preload clean" -Anweisung verwendet werden, mit der vermieden 
wird, dass Daten aus dem Speicher geladen werden. 

Eine Synchronisierungsanweisung wird benotigt, urn sicherzu- 
stellen, dass der Inhalt eines spezifischen Speicherberei- 
ches, der cacheartig im I RAM abgelegt ist, an die Speicher- 
hierarchie zuruckgeschrieben werden kann, was global oder 
durch Spezifizierung des Speicherbereiches, auf welchen zuge- 
griffen wird, erfolcfen kann; der globale Zugriff entspricht 
einem „full write back" . Um das Vorladen des IRAMs zu verein- 
fachen, ist es moglich, dies durch einfache Angabe einer Ba- 
sisadresse, ggf . einer bzw. mehrerer Schrittweiten (beim Zu- 
griff auf multidimensionale Datenfelder) sowie einer Gesamt- 
lauflange zu spezif izieren und diese in Registern oder der- 
gleichen abzulegen und dann, zur - Bestiinmung, wie geladen wer- 
den soli, auf diese Register zuzugreifen. 

Besonders bevorzugt ist es, wenn die Register als FIFOs aus-. 
gebildet werden. Es kann dann fur eine Vielzahl auch virtuel- 
ler Prozessoren in einer Multithreadumgebung jeweils ein FIFO 
vorgesehen werden , Oberdies konnen Speicherstellen zum Ge- 
brauch als TAG-Speicher wie bei Caches ublich vorgesehen wer- 
den. 

Es sei auch erwahnt, dass die Markierung des Inhaltes von 
IRAMs als im Cache-Sinne „dirty M hilfreich ist, damit der In- 
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halt so schnell wie moglich an einen externen Speicher zu- 
rtickgeschrieben werden kann, wenn er nicht -im gleichen IRAM 
wieder verwendet werden soil. Damit konnen das XPP-Feld und 
der Cache-Controller als eine einzige Einheit betrachtet wer- 
den, da sie keine unterschiedlichen Anweisungsstrdme bendti- 
gen. Vielmehr kann der Cache-Controller als die Implement ie- 
rung der Stufen „conf iguration fetch", „operand fetch" <iram 
preload) und „write back" , also CF, OF und WB, in der XPP- 
Pipeline angesehen werden, wobei auch die Ausf uhrungsstuf e 
(ex) ausgelost wird. Auf Grund der langen Latenzen und' der 
Nichtvorhersehbarkeit etwa durch Cache-Fehlzugrif f e Oder Kon- 
figurationen mit unterschiedlicher Lange ist es vorteilhaft, 
wenn die Stufen mehrere Konf igurationen breit uberlappt wer- 
den, wobei zwecks loser Ankopplung das Konf igurations- und 
Datenvorlade-FIFO (Pipeline) verwendet wird. Es sei erwahht, 
dass dem Preload der per se bekannte FILMO nachgeordnet sein 
kann. Es sei auch erwahnt, dass das Vorladen spekulativ sein 
kann, wobei das Spekulationsmafi compilerabhangig bestimmt 
werden kann. Ein Nachteil durch falsches Vorladen entsteht 
aber insofern nicht, als nicht ausgefuhrte, sondern nur vor- 
geladene Konf igurationen ohne weiteres far ein Oberschreiben 
freigebbar sind, genauso wie zugeordnete Daten. Die Vorladung 
des FIFOs kann mehrere Konf igurationen weit vorausgehen und 
etwa abhangig von Eigenschaf ten des Algorithmus sein. Es ist 
meglich, eine Hardware hierfur zu verwenden. 

Was das Zuriickschreiben yon verwendeteh Daten aus dem IRAM in 
externe Speicher angeht, so kann dies durch einen geeigneten, 
der XPP zugeordneten Cache-Controller erfolgen, wobei aber 
darauf hingewiesen wird, dass dieser typisch seine Aufgaben 
priorisieren wird und bevorzugt Vorladeoperationen ausftihrt, 
die auf Grund des zugeordneten Ausf uhrungsstatusses eine hohe 

- 11 - 
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Prioritat besitzen. Andererseits kann auch ein Vorladen durch 
eine uberlagerte IRAM-Instanz in einem anderen Block oder den 
Mangel an leeren IRAM-Instanzen im Ziel-IRAM-Block blockiert 
werden. In letzerem Fall kann die Konf iguration warten, bis 
eine Konf iguration und/oder ein Zuruckschreiben beendet ist. 
Die IRAM-Instanz in einem unterschiedlichen Block kann dabei 
im Gebrauch befindlich oder „dirty" sein. Es kann vorgesehen 
werden, dass die zuletzt verwendeten sauberen IRAMs verworfen 
werden, also als „leer" betrachtet werden. Wenn weder leere 
noch saubere IRAM-Instanzen vorliegen, muss ein „dirty" --IRAM- 
Teil bzw. ein nichtleerer an die Speicherhierarchie zuruckge- 
schrieben werden. Da sich immer nur .eine Instanz im Gebrauch 
befinden kann, und es mehr als eine Instanz in einem I RAM- 
Block geben soli, damit ein Cache-Effekt erreicht wird, kann 
es nicht passieren, dass weder leere noch saubere noch „dir- 
ty w -IRAM-Instanzen existieren. 

Beispiele von Architekturen, bei denen ein SMT-Prozessor mit 
einer XPP-Thread-Resource gekoppelt ist, finden sich bei- 
spielhaft in Fig. 4a - c. 

Auch bei der hier vorgestellten und bevorzugten Variante ist 
es erforderlich, ggf . den Speicherverkehr zu. beschranken, was 
wahrend Kontextwechseln auf verschiedene Weisen moglich ist. 
So brauchen reine Lesedaten nicht gespeichert werden, wie 
dies etwa bei Konf igurationen der Fall ist. Bei nicht unter- 
brechbaren (nicht praemptiven) Konf igurationen brauchen die 
lokalen Zustande von Bussen und PAEs nicht gespeichert wer- 
den. 

Es kann vorgesehen werden, dass nur modifizierte Daten ge- 
speichert werden und es k6nnen Cache-Strategien verwendet 
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werden, uni den Speicherverkehr zu verringern. Hierzu kann 
insbesondere bei haufigen Kontextwechseln eine LRU-Strategie 
(LRU = least recently used) insbesondere zusatzlich zu einem 
Vorlademechanismus implement iert werden. 

Wenn IRAMs als lokale Cache-Kopien des Hauptspeichers defi- 
niert werden und jedem I RAM eine Startadresse und Modifizie- 
rungszustandsinformation zugeordnet ist, ist es bevorzugt, 
dass die IRAM-Zellen auch wie far die SMT-Unterstutzung re- 
pliziert sind, so dass nur die Startadressen der IRAMs ge- 
speichert und. als Kontext wieder geladen werden miissen. Die 
Startadressen fur die IRAMs einer augenblicklichen Konfigura- 
tipn wahlen dann die IRAM-Instanzen mit identischen Adressen 
zum Gebrauch aus . Wenn kein Adress-TAG einer IRAM-Instanz der 
Adresse des neu geladenen bzw. neu zu ladenden Kontexts ent- 
spricht, kann der entsprechende Speicherbere.ich in eine leere 
IRAM-Instanz geladen werden, wobei dies hier zu verstehen ist 
als freier IRAM-Bereich. Wenn ein solcher hicht verfugbar 
ist, kann auf die vorbeschriebenen Verfahren zuriickgegrif f en 
werden. 

Es sei im ttbrigen darauf hingewiesen, dass. durch Ruckschrei- 
ben bedingte Verzogerungen unter Verwendung einer insbesonde- 
re separaten Statemachine (Cache-Controller) vermieden werden 
k6nnen, mit welcher ver'sucht wird, momentan iriaktive IRAM- 
Instanzen wahrend nicht benStigter Speicherzyklen zuruckzu- 
schreiben. 

Es sei darauf hingewiesen, dass, wie aus dem oben Stehenden 
ersichtlich ist, bevorzugt der Cache als expliziter Cache und 
nicht als wie gewohnlich dem Programmief er und/oder Compiler 
transparenter Cache aufzufassen ist. Urn hier die entsprechen- 
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de Ansteue'rung vorzusehen, konnen, etwa durch den Compiler, 
folgende Anweisungen ausgegeben werden: Konf igurationsvorla- 
deanweisungen, die IRAM-Vorladeanweisungen vorausgehen, wel- 
che von jener Konf iguration verwendet werden. Derartige Kon- 
figurationsvorladeinstruktionen sollten so friih wie mdglich 
vom Scheduler vorgesehen" werden. Weiter, das heifit alternativ 
und/oder zusatzlich, konnen IRAM-Vorladeinstruktionen vorge- 
sehen werden, die gleichfalls fruhzeitig vom Scheduler vorge- 
sehen werden sollten, und es konnen Konf igurationsausfuh- 
rungsanweisungen vorgesehen werden, die IRAM- 
Vorladeanweisungen fur diese Konf iguration folgen, wobei die- 
se Konfigurationsausfuhrungsanweisungen insbesondere urn abge- 
schatzte Latenzzeiten gegenuber den Vorladeanweisungen verzQ- 
gern k6nneri. 

Es kann auch vorgesehen werden, dass eine Konf igurationswar- 
teanweisung ausgef iihrt wird, gefolgt von einer Anweisung, die 
ein Cache-Zuruckschreiben erzwingt, wobei beides vom Compiler 
ausgegeben wird, und zwar insbesondere dann, wenn eine Anwei- 
sung einer anderen funktionellen Einheit wie der Lade-/Spei- 
chereinheit auf einen Speicherbereich zugreifen kann, der po- 
tenziell „dirty" oder in einem IRAM in Gebrauch bef indlich 
ist. Damit kann. eine Synchronisierung der Anweisungsstrome 
und der Cache-Inhalte unter Vermeidung von Daten-Hazards er- 
zwungen werden. Durch entsprechende Handhabung sind. derartige 
Synchronisationsanweisungen nicht notwehdigerweise haufig. 

Es sei erwahnt, dass das Datenladeh und/oder -ablegen nicht 
zwingend durch vollstandig logikzellenf eldbasiertes Vorgehen 
erfolgen muss. Vielmehr ist es auch moglich, etwa eine oder 
mehrere separate und/oder dedizierte DMA-Einheiten, das heifit 
insbesondere DMA-Controller vorzusehen, die z. B. allenfalls 
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noch durch' Vorgaben beziiglich Startadresse, Schrittweite, 
Blockgrofie, Zieladressen etc. insbesondere von der CT und/ 
Oder aus dem Logikzellenfeld konfiguriert bzw. funktionsvor- 
bereitet und/oder eingerichtet werden. 

Das Laden auch kann insbesondere aus einem Cache und in die- 
sen hinein erfolgen. Dies hat die Vorteile, dass die externe 
Koiranunikation mit grofieren Speicherbanken tiber den Cachecon- 
troller gehandhabt wird, ohne dass innerhalb des Datenverar- 
beitungslogikzellenfeldes separate Schaltanordnungen dafur 
vorgesehen sein mussen, dass der Zugriff in lesender oder 
schreibender Weise bei Cache-Speichermitteln typisch sehr 
schnell und mit allenfalls geringer Latenzzeit erfolgen wird 
und dass auch typisch eine CPU-Einheit, dort typisch tiber ei- 
ne separate LOAD/STORE-Einheit, an diesen Cache angebunden 
ist, sodass ein Zugriff auf Daten und ein Austausch derselben 
zwischen CPU-Kern und Datenverarbeitungslogikzellenf eld 
blockweise schnell und derart erfolgen kann, dass nicht fur 
jedes Obergeben von Daten ein separater Befehl etwa aus dem 
OpCode-Fetcher der CPU abgeholt und Verarbeitet werden muss. 

Es erweist sich diese Cacheankoppelung auch als wesentlich 
ganstiger als eine Ankopplung eines Datenverarbeitungslo- 
gikzellenf eldes an die ALU tiber .Register, wenh diese Register 
nur tiber eine LOAD/STORE-Einheit mit einem Cache kommunizie- 
ren, wie dies aus den Nicht-PACT-eigenen zitierten Schriften 
per se bekannt ist. 

Es kann eine weitere Datenverbiridung zu der Lade/Speicher- 
einheit der oder einer dem Datenverarbeitungslogikzellenf eld 
zugeordneten Sequenziell-CPU-Einheit vorgesehen sein und/oder 
zu deren Register. 
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Es sei erwahnt, dass ein Ansprechen derartiger Einheiten iiber 
separate Eingangs-/Ausgangsanschlusse (IO-Ports) der insbe- 
sondere als VPU beziehungsweise XPP ausgestaltbaren Datenver- 
arbeitungslogikzellenanordnung erfolgen kann und/oder durch 
einen oder mehrere einem" Einzelport nachgeschaltete Multiple- 
xer. 



Dass neben dem insbesondere' blockweisen und/oder streamenden 
und/oder im Random-Access, insbesondere im RMW-Modus (Read- 
Modify-Write-Modus) erfolgenden Zugrif.f auf Cache-Bereiche in 
schreibender und/oder lesender Weise und/oder die LOAD/STORE- 
Einheit und/oder die (per se im Stand der Technik bekannte) 
Verbindung mit dem Register der. Sequenziell-CPU auch eine ' 
Verbindung mit einem externen Massenspeicher wie einem RAM, 
einer Fes.tplatte und/oder einem anderen Datenaustauschport 
wie einer Antenne und so weiter erfolgen kann, sei auch er- 
wahnt. Es kann fur diesen Zugriff auf Cache- und/oder LOAD/ 
STORE-Einheit- und/oder registereinheitverschiedene Speicher- 
mittel ein separater Port vorgesehen sein. Dass hier geeigne- 
te Treiber, Buffer, Signalaufbereiter fur Pegelanpassung und 
so weiter vorgesehen sein konnen, z.. B. LS 74244, LS74245, 
sei erwahnt. Im Obrigen sei erwahnt, dass insbesondere, je- 
doch nicht ausschliefilich zur Aufbereitung eines in das Da- 
tenverarbeitungslogikzellenfeld hineinstrdmenden oder in die- 
sem stromenden Datenstromes die Logikzellen des Feldes ALUs 
bzw. EALUs umfassen konnen und typisch werden, denen ein- 
gangs- und/oder ausgangsseitig, insbesondere sowohl eingangs- 
als auch ausgangsseitig kurze, feingranular konf igurierbare, 
FPGA-artige Schaltkreise vorgesetzt sein kQnnen und/oder in 
die PAE-ALU integriert sein konnen, urn etwa aus einem konti- 
nuierlichen Datenstrom Bitblocke herauszuschneiden, wie dies 
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fiir die MPEG-4-Dekodierung erforderlich ist. Es ist dies zum 
einen vorteilhaft, wenn ein Datenstrom in die Zelle hineinge- 
langen soil und dort ohne Blockierung von grdAeren PAE- 
Einheiten einer Art Vorverarbeitung zu unterwerfen ist. Dies 
ist auch dann von ganz besonderem Vorteil, wenn die ALU als 
SIMD-Rechenwerk ausgestaltet wird, wobei dann ein sehr brei- 
tes Dateneingangswort von zum' Beispiel 32 Bit Datenbreite 
uber die vorgeschalteten FPGA-artigen Streifen aufgespalten 
wird in mehrere parallele Datenworter von zum Beispiel 4 Bit 
Breite, die dann in den SIMD-Rechenwerken parallel abgearbei- 
tet werden konnen, was die Gesamtperf ormance des Systems si- 
gnifikant zu erhohen vermag, sofern .entsprechende Anwendung 
benotigt werden. Es sei darauf hingewiesen, dass vorstehend 
von FPGA-artigen vor- beziehungsweise nachgeschalteten Struk- 
turen die Rede war. Mit FPGA-artig muss aber, was explizit 
erwahnt sei, nicht zwingend Bezug genommen sein auf 1-Bit- 
granulare Anordnungen. Es ist insbesondere moglich, statt 
dieser hyperf eingranularen Strukturen lediglich f einer granu- 
lare Strukturen von zum Beispiel 4 Bit Breite vorzusehen. Das 
heifit, die FPGA-artigen Eingangs- und/oder Ausgangsstrukturen 
vor und/oder nach einer insbesondere als SIMD-Rechenwerk aus- 
gestalteten ALU-Einheit sind z.B. so konf igurierbar , dass im- 
mer 4 Bit breite Datenworter zugefahrt und/oder verarbeitet 
werden. Es ist moglich, hier eine Kaskadierung vorzusehen, so 
dass zum Beispiel die einkommenden 32 Bit breiten Datenworter 
in 4 separierte bzw. separierende 8-Bit-FPGA-artige, neben- 
einander angeordnete Strukturen strSmen, diesen 4 Sttick 8 Bit 
breiten FPGA-artigen Strukturen ein zweiter Streifen rait 8 
Stuck 4 Bit breiten FPGA-artigen Strukturen nachgesetzt ist, 
und gegebenenfalls nach einem weiteren derartigen Streifen 
dann, sofern dies fur den jeweiligen Zweck als erforderlich 
erachtet wird, zum Beispiel 16 Stuck parallel nebeneinander 
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angeordnete 2 Bit breite FPGA-artige Strukturen vorgesehen 
werden. Wenn dies der Fall ist, kann gegeniiber rein hyper- 
feingranular FPGA-artigen Strukturen eine betrachtliche Ver- 
ringerung des Konf igurationsaufwandes erzielt werden. Dass 
dies ttberdies dazu fiihrt, dass der Konf igurationsspeicher und 
so welter der FPGA-artigen Struktur wesentlich kleiner aus- 
fallen kann und somit eine Einsparung an Chipflache erzielt 
wird, sei erwahnt. Auch sei erwahnt, dass FPGA-artige Strei- 
fenstrukturen wie auch in Verbindung mit Fig. 3 offenbart, 
insbesondere bezttglich Anordnung in der PAE, besonders' leicht 
die Implementierung von Pseudozuf allsrauschgeneratoren erm5g- 
lichen. Wenn dabei schrittweise immer wieder aus einer einzi- 
gen FPGA-Zelle erhaltene einzelne Ausgangsbits an die FPGA- 
Zelle zurvickgespeichert werden, kann auch mit einer einzigen 
Zelle sequenziell ein Pseudozuf allsrauschen kreativ generiert 
werden, was als fur sich erfinderisch betrachtet wird, vgl. 
Fig. 5. 

Prinzipiell sind die vorstehend beschriebenen Kopplungsvor- 
teile bei Datenblockstromen tiber den Cache erreichbar; beson- 
ders bevorzugt ist es jedoch, wenn der Cache streif enweise 
(slice-artig) aufgebaut ist und dann ein Zugriff auf mehrere 
der Slices simultan erfolgen kann, insbesondere auf alle Sli- 
ces gleichzeitig. Dies ist dann vorteilhaft, wenn, was noch 
erortert werden wird, auf dem Datenverarbeitungslogikzellen- 
feld (XPP) und/oder der Sequenziell-CPU und/oder den Sequen- 
ziell-CPUs eine Vielzahl von Threads abzuarbeiten sind, sei 
es im Wege des Hyperthreadings, des Multitaskings und/oder 
des Multithreadings. Es sind also bevorzugt Cachespeichermit- 
tel mit Scheibenzugriff bzw. Scheibenzugrif f sermoglichungs- 
steuermitteln vorgesehen. Es kann dabei z. B. jedem Thread 
eine eigene Scheibe zugeordnet werden. Dies ermQglicht es 
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spater, be'im Abarbeiten der Threads sicherzustellen, dass je- 
weils auf die entsprechenden Cachebereiche bei Wiederauf nahme 
der mit dem Thread abzuarbeitenden Bef ehlsgruppe zugegriffen 
wird. 

5 

Es sei noch einmal erwahnt, dass der Cache, nicht zwingend in 
Slices unterteilt sein muss, und dass, wenn dies der Fall 
ist, nicht zwingend jeder Slice einem eigenen Thread zugewie- 
sen werden muss. Es sei allerdings darauf hingewiesen, dass 

10 dies die bei weitem bevorzugte Methode ist. Es sei weiter 

darauf hingewiesen, dass es Falle geben kann, in denen nicht 
alle Cache-Bereiche simultan oder zu einer gegebenen Zeit 
temporar benutzt werden. Vielmehr ist zu erwarten, dass bei 
typischen Datenverarbeitungsanwendungen, wie sie in handge- 

15 haltenen mobilen Telefonen (Handys) , Laptops, Kameras und so 
weiter auftreten werden, haufig Zeiten vorliegen werden, in 
denen nicht der gesamte Cache benotigt wird. Es ist daher be- 
sonders bevorzugt, wenn einzelne Cache-Bereiche von der Lei- 
stungsversorgung derart trennbar sind, dass ihr Energiever- 

20 brauch significant absinkt, insbesondere auf oder na.he null- 
Dies kann bei sliceweis.er Ausgestaltung des Caches durch sli- 
ceweise Abschaltung derselben uber geeignete Leistungsab- 
trennmittel geschehen, vgl. zum Beispiel Fig. 2. Die Abtren- 
nung kann entweder tiber eine Heruntertaktung, Taktabtrennung 

25 oder eine Leistungsabtrennung erfolgen. Es ' kann insbesondere 
einer einzelnen Cache-Scheibe oder dergleichen eine Zugriffs- 
erkennung zugeordnet sein, welche dazu ausgebildet ist, zu 
erkennen, ob ein jeweiliger Cache-Bereich beziehungsweise ei- 
ne jeweilige Cache-Scheibe momentan einen ihm zugeordneten 

30 Thread, Hyperthread oder Task" hat, von welchem er benUtzt 

wird. Sofern dann vom Zugriff serkennungsmittel festgestellt 
wird, dass dies nicht der Fall ist, wird typisch eine Abtren- 
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nung vom Takt und/oder sogar der Leistung moglich sein. Es 
sei erwShnt, dass bei Wiedereinschalten der Leistung nach el- 
nan Abtrennen ein sofortiges Wiederansprechen des Cacheberei- 
ches moglich ist, also keine signifikante Verzogerung durch 
das An- und Ausschalten der Leistungszuf uhr zu erwarten ist, 
sofern mit gangigen geeigneten Halbleitertechnologien eine 
Implementierung in Hardware erfolgt. Dies ist unabhangig von 
der Verwendung mit Logikzellenf eldern in vielen Anwendungen 
sinnvoll. 

Ein weiterer besonderer Vorteil, der sich bei der vorliegen- 
den Erfindung ergibt, besteht darin,. dass zwar eine besonders 
effiziente Kopplung bezuglich des Ubertrags von Daten bezie- 
hungsweise Operanden in insbesondere blockweiser Form gegeben 
ist, dass aber dennoch ein Balancing nicht in der Weise er- 
forderlich ist, dass die exakt gleiche Verarbeitungszeit in 
Sequenziell-CPU und XPP beziehungsweise Datenverarbeitungslo- 
gikzellenfeld erforderlich ist. Vielmehr erfolgt die Verar- 
beitung in einer praktisch oftmals unabhangigen Weise, insbe- 
sondere derart, dass die Sequenziell-CPU und die Datenverar- 
beitungslogikzellenfeldanordnung fur einen Scheduler oder 
dergleichen als separate Ressourcen betrachtbar sind. Dies 
erlaubt eine sofortige Umset.zung bekannter Datenverarbei- 
tungsprogrammaufspaltungstechnologien wie Multitasking, Mul- 
tithreading und Hyperthreading. Der sich ergebende Vorteil, 
dass ein Pf adbalancing nicht erforderlich ist, das heifit Aus- 
balancieren zwischen sequenziellen Teilen (z. B. auf einer 
RISC-Einheit) und Datenf lussteilen (z. B. auf einer XPP) 
fuhrt dazu, dass beispielsweise innerhalb der Sequenziell-CPU 
(also z. B. den RISC functional units) beliebige Anzahlen von 
Pipelinestufen durchlaufen werden k5nnen, Taktungen in unter- 
schiedlicher Weise moglich sind und so weiter. Ein weiterer 
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Vorteil der vorliegenden Erfindung besteht darin, dass durch 
das Hineinkqnfigurieren einer Ladekonf iguration beziehungs- 
weise einer Storekonf iguration in die XPP oder andere Daten- 
verarbeitungslogikzellenfelder die Daten in das Feld mit ei- 
ner Geschwindigkeit hineingeladen werden oder aus diesem her- 
ausgeschrieben werden kSnnen, die nicht mehr bestimmt ist 
durch die Taktgeschwindigkeit der CPU, die Geschwindigkeit, 
mit welcher der OpCode-Fetcher arbeitet, oder dergleichen. 
Mit anderen Worten ist die Ablauf steuerung der Sequenziell- 
CPU nicht mehr f laschenhalsartig begrenzend ftir den Daten- 
durchsatz des Datenzellenlogikf eldes, ohne dass eine nur noch 
lose Ankopplung besteht. 

Wahrend es in einer besonders bevorzugten Variante der Erfin- 
dung moglich ist, die fur eine XPP-Einheit bekannte CT (bzw. 
CM; Konfigurationsmanager bzw. Konf igurationstabelle) zu ver- 
wenden, urn sowohl das Konf igurieren eines oder mehrerer, auch 
hierarchisch mit mehreren CTs angeordneter XPP-Felder und 
gleichzeitig eines oder mehrerer Sequenziell-cPUs, dort quasi 
als Multithreading-scheduler- und -Hardwareverwaltung zu ver- 
wenden, was den inharenten Vorteil hat, daJi bekannte Techno- 
logien wie z. B. FILMO usw. ftir die hardwareunterstOtzte Ver- 
waltung beim Multithreading einsetzbar werden, ist es alter- 
nate und/oder, insbesondere in hierarchischer Anordnung, zu- 
satzlich moglich, dass ein Datenverarbeitungslogikzellenf eld 
wie eine XPP Konf igurationen vom OpCode-Fetcher einer Sequen- 
ziell-CPU tiber das Koprozessor-Interf ace erhalt. Dies fuhrt 
dazu, dafi von der Sequenziell-CPU und/oder einer anderen XPP ' 
ein Aufruf instantiiert werden kann, der zu einer Datenabar- 
beitung auf der XPP ftihrt. Die XPP wird dabei dann z. B. tiber 
die beschriebene Cache-Ankopplung und/oder mittels LOAD- 
und/oder STORE-Konf igurationen, die Adressgeneratoren fur La- 
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den und/oder Wegschreiben von Daten im XPP- bzw. Datenverar- 
beitungslogikzellenfeld vorsehen, im Datenaustausch gehalten. 
Mit anderen Worten wird eine coprozessorartige und/oder 
Thread-Ressourcen-artige Ankopplung eines Datenverarbeitungs- 
logikzellenfeldes moglich, wahrend gleichzeitig ein daten- 
stromartiges Datenladen -durch Cache- und/oder I/O-Port- 
Kopplung erfolgt. 

Es sei erwahnt, daB die Koprozessor-Ankopplung, d. h. die An- 
kopplung des Datenverarbeitungslogikzellenfeldes typisch dazu 
fuhren wird, dafi das Scheduling auch fur dieses Logikzellen- 
feld auf der Sequenziell-CPU oder einer dieser tibergeordneten 
Schedulereinheit bzw. einem entsprechenden Schedulermittel 
erfolgen wird. In einem solchen Fall findet praktisch die 
Threading-Kontrolle und -verwaltung auf dem Scheduler bzw. 
der Sequenziell-CPU statt. Obwohl dies per se moglich ist, 
wird dies, zumindest bei einfachster Implementierung der Er- 
findung, nicht zwingend der Fall sein. Vielmehr kann eine 
Verwendung des Datenverarbeitungslogikzellenf eldes durch Auf- 
ruf in herkommlicher Weise wie bei einem Standard-Coprozes- 
sor, etwa bei 808 6/8087-Kombinationen erfolgen. 

Weiter sei erwahnt, da/5 es in einer besonders bevorzugten Va- 
riants, unabhangig yon der Art der Konf iguration, sei es uber 
das Coprozessor-Interface, den als Scheduler mitdienenden 
Konfigurationsmanager (CT) der XPP bzw. des Datenverarbei- 
tungslogikzellenf eldes oder dergleichen oder auf andere Wei- 
se, moglich ist, im bzw. unmittelbar am Datenverarbeitungslo- 
gikzellenf eld bzw. unter Verwaltung des Datenverarbeitungslo- 
gikzellenfeldes Speicher, insbesondere interne Speicher, ins- 
besondere bei der XPP-Architektur, wie sie aus den diversen 
Voranmeldungen und den Verof f entlichungen des Anmelders be- 



- 22 - 



WO 2004/088502 



PCT/EP2004/003603 



kannt 1st," RAM-PAEs, oder andere entsprechend verwaltete oder 
interne Speicher wie ein Vektorregister anzusprechen, d. h. 
die iiber die LOAD- Konfigurat ion eingeladenen Datenmengen vek- 
torartig wie in Vektorregistern in die internen Speicher ab- 
zulegen, dann, nach Umkonf igurieren der XPP bzw. des Daten- 
verarbeitungslogikzellenfeldes, also Oberschreiben bzw. Nach- 
laden und/oder Aktivieren einer neuen Konf iguration, die die 
eigentliche Verarbeitung der Daten durchfuhrt (in diesem Zu- 
sammenhang sei darauf hingewiesen, dafi far eine solche Verar- 
beitungskonfiguration auch Bezug genommen werden kann auf ei- 
ne Mehrzahl von Konf igurationen, die z. B. im Wave-Modus 
und/oder sequenziell nacheinander abzuarbeiten sind) zuzu- 
greifen wie bei einem Vektorregister und dann die dabei er- 
haltenen Ergebnisse und/oder Zwischenergebriisse wiederum in 
die internen oder Ober die XPP wie interne Speicher verwalte- 
ten externen Speicher, um dort diese Ergebnisse abzulegen. 
Die so vektorregisterartig mit Verarbeitungsergebnissen be- 
schriebenen Speichermittel iinter XPP-Zugriff sind- dann, nach 
Rekonfigurieren der Verarbeitungskonf iguration durch Laden 
der STORE-Konfiguration in geeigneter Weise weggeschrieben, 
was wiederum datenstromartig geschieht, sei es tiber den I/O- 
Port. direkt in externe Speicherbereiche und/oder, wie beson- 
ders bevorzugt, in Cache-Speicherbereiche, auf welche dann zu 
einem spateren Zeitpunkt die Sequenziell-CPU und/oder andere 
Konf igurationen auf der zuvor die Daten erzeugt habenden XPP 
oder einer anderen entsprechenden Datenverarbeitungseinheit 
zugreifen kdnnen. 

Eine besonders bevorzugte Variante besteht darin, zumindest 
fur bestimmte Datenverarbeitungsergebnisse und/oder Zwischen- 
ergebnisse als Speicher- bzw. Vektorregistermittel, in wel- 
chem bzw. welches die erhaltenen Daten abzulegen sind, nicht 
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einen internet* Speicher zu benutzen, in welchen Daten tiber 
eine STORE-Konf iguration in den Cache- oder einen anderen Be- 
reich, auf welchen die Sequenziell-CPU oder eine andere Da- 
tenverarbeitungseinheit zugreifen konnen, wegzuschreiben 
sind, sondern statt dessen unmittelbar die Ergebnisse wegzu- 
schreiben in entsprechende, insbesondere zugrif f sreservierte 
Cachebereiche, die insbesondere Slice-artig organisiert sein 
kannen. Dies kann gegebenenfalls den Nachteil einer grofieren 
Latenz haben, insbesondere, "wenn die Wege zwischen der XPP- 
oder Datenverarbeitungslogikzellenfeldeinheit und dem Cache 
so lang sind, daB die Signallauf zeiten ins Gewicht fallen, 
fiihrt aber dazu, daB gegebenenfalls .keine weitere STORE- 
Konf iguration benetigt wird. Es sei im ubrigen erwahnt, dafi 
eine derartige Abspeicherung von Daten in Cache-Bereiche ei- 
nerseits, wie vorstehend beschrieben, dadurch mOglich ist, 
daB der Speicher, in welchen geschrieben wird, physikalisch 
nahe beim Cache-Controller liegt und als Cache ausgestaltet 
ist, dass aber alternativ und/oder zusatzlic.h auch die Mog- 
lichkeit besteht, einen Teil eines XPP-Speicherbereiches, 
XPP^internen Speichers oder. dergleichen, insbesondere bei RAM 
uber PAEs, vgl. PACT 31 (DE .102 12 621.6, WO 03/036507), unter 
die Verwaltung eines oder, nacheinander mehrerer Cache- 
Speichercontroller zu stellen. Dies hat dann Vorteile, wenn 
die Latenz beim Abspeichern der Verarbeitungsergebnisse, wel- 
che innerhalb des Datenverarbeitungslogikzellenf eldes be- 
stimmt werden, gering gehalten werden soil, wahrend die La- 
tenz beim Zugriff auf .den dann nur noch als „Quasi-Cache« 
dienenden Speicherbereich durch andere Einheiten nicht oder 
nicht signifikant ins Gewicht fallt. 

Es sei im ubrigen erwahnt, dafi auch eine Ausgestaltung derart 
meglich ist, daB der Cache-Controller einer herkommlichen Se- 
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quenziell-CPU einen Speicherbereich als Cache anspricht, der, 
ohne dem Datenaustausch mit dem Datenverarbeitungslogikzel- 
lenfeid zu dienen, auf und/oder bei diesem physikalisch 
liegt. Dies hat den Vorteil, dafi dann, wenn Anwendungen auf 
dem Datenverarbeitungslogikzellenfeld laufen, die einen al- 
lenfalls geringen lokalen Speicherbedarf haben, und/oder wenn 
auch nur wenige weitere Konfigurationen bezogen auf die . zur 
Verfiigung stehenden Speichermengen benotigt werden, diese ei- 
ner oder mehreren Sequenzieil-CPUs als Cache zur Verfugung 
stehen konnen. Es sei erwahnt, dafi dann der Cache-Controller 
far die Verwaltung eines Cache-Bereiches mit dynamischem Urn- 
fang, d. h. variierender Grefie ausgebildet sein kann und 
wird. Eine dynamische Cache-Umf angsverwaltung bzw. Cache- 
Umfangsverwaltungsmittel fur die dynamische Cache-Verwaltung 
wird- typisch die Arbeitslast und/oder die Input-/Output-Last 
auf der Sequenziell-CPU und/oder dem Datenverarbeitungslo- 
gikzellenfeld bertlcksichtigen. Mit anderen Worten kann bei- 
spielsweise analysiert werden, wie viele NOPs Datenzugrif f e 
in einer gegebenen Zeiteinheit auf der Sequenziell-CPU vor- 
liegen und/oder wie viele Konfigurationen im XPP-Feld in da- 
fur vorgesehenen Speicherbereichen vorabgelegt sein sollen, 
urn eine schnelle Umkonf iguration, sei es im Wege einer Wel- 
lenrekonfiguration oder auf andere Weise ermoglichen zu kfin- 
nen. Die hiermit offenbarte dynamische CachegrSsse ist dabei 
insbesondere bevorzugt lauf zeitdynamisch, d. h . der Cache- 
controller verwaltet jeweils eine aktuelle Cachegrosse, die 
sich von Takt zu Takt oder Taktgruppe andern kann. Es sei im 
tibrigen darauf hingewiesen, dafi die Zugrif f sverwaltung eines 
XPP- bzw. Datenverarbeitungslogikzellenfeldes mit Zugrif f als 
interner Speicher wie bei einem Vektorregister und als Cache- 
artiger Speicher fur den externen Zugriff was die Speicherzu- 
griffe angeht bereits beschrieben wurde in der DE 196 54 595 
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und der PCT/DE 97/03013 (PACT03) . Die genannten Schriften 
sind durch Bezugnahme zu Of f enbarungszwecken hiermit vollum- 
fanglich eingegliedert. 

Vorstehend wurde auf Datenverarbeitungslogikzellenf elder Be- 
zug genommen, die insbesondere zur Laufzeit rekonf igurierbar 
sind. Es wurde diskutiert, dass bei diesen eine Konfigurati- 
onsverwaltungseinheit (CT bzw. CM) vorgesehen werden kann. 
Aus den diversen, zu Of f enbarungszwecken unter Bezug genomme- 
nen Schutzrechten des Anmelders sowie seinen weiteren Verof- 
fentlichungen ist die Verwaltung von Konf igurationen per se 
bekannt. Es sei nun explizit darauf hingewiesen, dass derar- 
tige Einheiten und deren Wirkungsweise, mit der insbesondere ' 
unabhangig von Ankopplungen an Sequenziell-CPUs etc. aktuell 
noch nicht benotigte Konf igurationen vorladbar sind, auch 
sehr gut nutzbar sind, urn im Multitaskingbetrieb und/oder bei 
Hyperthreading und/oder Multithreading einen Task- bezie- 
hungsweise einen Thread-, und/oder Hyperthreadwechsel zu be- 
wirken, vgl. zum Beispiel 6a - 6c. Dazu kann ausgentttzt wer- 
den, dass wahrend der Laufzeit eines Threads oder Tasks in 
die Konfigurationsspeicher bei einer einzelnen oder einer 
Gruppe von Zellen des Datenverarbeitungslogikzellenf eldes, 
also beispielsweise einer PAE eines PAE-Feldes (PA) auch Kon-. 
figurationeh far unterschiedliche Aufgaben, das heifit Tasks 
oder Threads beziehungsweise Hyperthreads geladen werden k6n- 
nen. Dies fiihrt dann dazu, dass bei einer Blockade eines 
Tasks oder Threads, etwa wenn auf Daten gewartet werden muss, 
weil diese noch nicht verfugbar sind, sei es, da sie von ei- 
ner anderen Einheit noch nicht generiert oder empfangen wur- 
den, beispielsweise auf Grund von Latenzen, sei es, weil eine 
Resource derzeit noch durch einen anderen Zugriff blockiert 
ist, dann Konf igurationen far einen anderen Task oder Thread 
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vorladbar und/oder vorgeladen sind und auf diese gewechselt 
werden kann, ohne dass der 

Zeitoverhead fiir einen Konf igurationswechsel bei der insbe- 
sondere schattengeladenen Konf iguration abgewartet werden 
muss. Wahrend es prinzipiell moglich ist, diese Technik auch 
dann zu verwenden, wenn Innerhalb eines Tasks die wahrschein- 
lichste Weiterfiihrung vorhergesagt wird und eine Vorhersage 
nicht zutrifft (prediction miss), wird diese Art des Betriebs 
bei vorhersagefreiem Betrieb bevorzugt sein. Bei Verwendung 
rait einer rein sequentiellen CPU und/oder mehreren rein se- 
quentiellen CPUs, insbesondere ausschliefilich mit solchen, 
wird somit durch die Zuschaltung eines Konf igurationsmanagers 
eine Multithreadingverwaltungshardware realisiert. Verwiesen 
sei hinsichtlich dessen insbesondere auf PACT10 (DE 198 07. 
872.2, WO 99/44147, WO 99/44120) und PACT 17 (DE 100 28. 397.7, 
WO 02/13000) . Dabei kann es als ausreichend erachtet werden, 
insbesondere dann, wenn nur fiir eine CPU und/oder einige we- 
nige Sequen.ziell-CPUs eine Hyperthreadingverwaltung gewtinscht 
ist, auf bestimmte, in den speziell unter Bezug genommenen 
Schutzrechten beschriebene Teilschaltungen wie den FILMO zu 
verzichten. Insbesondere wird damit die Verwendung der dort 
beschriebenen Konf igurationsmanager mit und/oder ohne FILMO 
fur die Hyperthreadingverwaltung fur eine und/oder mehrere 
rein sequenziell arbeitende CPUs mit oder ohne Ankopplung an 
eine XPP oder ein anderes Datenverarbeitungslogikzellenf eld 
offenbart und hiermit fiir sich beansprucht. Es wird hierin 
eine fur sich erf inderische Besonderheit gesehen. Es sei im 
Obrigen erwahnt, dass eine Vielzahl von CPUs realisiert wer- 
den kann mit den bekannten Techniken, wie sie insbesondere 
aus PACT 31 (DE 102 12 621.6-53, PCT/EP 02/10572) und PACT 3 4 
(DE 102 41 812.8, PCT/EP 03/09957) bekannt sind, bei welchen 
innerhalb eines Arrays eine oder mehrere Sequenziell-CPUs 
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aufgebaut werden unter Ausnutzung eines oder mehrerer Spei- 
cherbereiche insbesondere im Datenverarbeitungslogikzellen- 
feld far den Aufbau der sequenziellen CPU, insbesondere als 
Befehls- und/oder Datenregister . Auch sei darauf verwiesen, 
dass bereits in fruheren Anmeldungen wie PACT02, (DE 196 51 
075.9-53, WO 98/26356), PACT 04 (DE 196 54 846.2-53, WO 
98/29952), PACT 08, (DE 197 04 728.9, WO 98/35299) offenbart 
wurde, wie Sequenzer mit Ring- und/oder Wahlf rei-Zugrif f- 
Speichern aufgebaut werden konnen. 

Es sei darauf hingewiesen, dass ein Task- beziehungsweise 
Thread- und/oder Hyperthreadwechsel .unter Verwendung der be- 
kannten CT-Technologie, vgl. PACT10 (DE 198 07 872.2, WO 
99/44147, WO 99/44120) und PACT 17 (DE 100 28 397.7, WO 
02/13000) derart erfolgen kann und bevorzugt auch erfolgen 
wird, dass einem per se bekannten, Sof tware-implementierten 
Betriebssystem-Scheduler oder dergleichen von der CT Perfor- 
mance-Scheiben und/oder Zeitscheiben zugeordnet werden, wah- 
rend welchen bestimmt wird, von welchen Tasks oder Threads 
nachfolgend welche Telle per se, unterstellt, dass Resourcen 
frei sind, abzuarbeiten. sind. Dazu sei ein Beispiel wie folgt 
gegeben: Zunachst soli fur einen ersten Task eine Adressfolge 
generiert werden, gemaft welcher wahrend der Ausfuhrung einer 
LOAD-Konfiguration Daten aus einem Speicher und/oder Cache- 
Speicher, an dem ein Datenverarbeitungslogikzellenf eld in der 
beschriebenen Weise angekoppelt 1st, geladen werden sollen. 
Sobald diese Daten vorliegen, kann mit der Abarbeitung einer 
zweiten, der. eigentlichen Datenverarbeitungskonf iguration, 
begonnen werden.. Auch diese kann vorgeladen werden, da sicher 
feststeht, dass diese Konf iguration, sof em keine Interrupts 
oder dergleichen einen vollstandigen Taskwechsel erzwingen, 
auszufuhren ist. In herkbmmlichen Prozessoren ist nun das 
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Problem des sogenannten Cache-Miss bekannt, bei dem die Daten 
zwar angefordert werden, aber nicht im Cache fur den Ladezu- 
griff bereit liegen. Tritt ein solcher Fall in einer Kopplung 
gemaB der vorliegenden Erfindung auf, kann bevorzugt auf ei- 
nen anderen Thread, Hyperthread und/oder Task gewechselt wer- 
den, der insbesondere zuvor von dem insbesondere softwareim- 
plementierten Betriebssystem-Scheduler und/oder einer anderen 
hard- und/oder sof twareimplementierten, entsprechend wirken- 
den Einheit far eine nachstmogliche Ausfiihrung bestimmt wurde 
und demgemafi bevorzugt vorab in einen der verfiigbaren Konfi- 
gurationsspeicher des Datenverarbeitungslogikzellenf eldes 
insbesondere im Hintergrund wahrend .der Ausfiihrung einer an- 
deren Konfiguration, beispielsweise der LOAD-Konf iguration, 
welche das Laden jener Daten, auf die nun gewartet wird, be- 
wirkt hat, geladen wurde. Dass fur die Vorabkonf iguratipn un- 
gestoft von der tatsachlichen Verschaltung der insbesondere 
grobgranular ausgebildeten Datenverarbeitungslogikzellen des 
Datenverarbeitungslogikzellenfeldes separate Konf igurations- 
leitungen von der konfigurierenden Einheit zu den jeweiligen 
Zellen direkt und/oder uber geeignete Bussysteme gefUhrt sein 
k6nnen wie per se im Stand der Technik bekannt, sei hier noch 
einmal explizit erwShnt, da diese Ausbildung hier besonders 
bevorzugt ist, um ein ungestortes Vorabkonf igurieren ohne 
Storung einer anderen, gerade laufenden Konfiguration zu er- 
moglichen. Erwahnt seien hier u. a. die PACT10 (DE 198 07 
872.2, WO 99/44147, WO 99/44120), PACT 17 (DE i00 28 397.7, 
WO 02/13000) PACT 13 (DE 199 26 538.0, WO 00/77 652),. PACT 02 
(DE 196 51 075.9, WO 98/26356) und PACT 08 (DE 197 04 728.9, 
WO 98/35299) . Wenn dann die Konfiguration, auf welche wahrend 
beziehungsweise auf Grund des Task^Thread- und/oder Hyper- 
threadwechsels gewechselt wurde, abgearbeitet wurde, und 
zwar, bei bevorzugten nicht teilbaren, ununterbrechbaren und 
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somit quasi atomaren Konf igurationen bis zum Ende abgearbei- 
tet wurde, vgl. PACT19 (DE 102 02 044.2, WO 2003/060747) und 
PACT11 (DE 101 39 170.6, WO 03/017095), wird teilweise eine 
weitere andere Konf iguration wie vorbestimmt durch die ent- 
sprechenden Scheduler, insbesondere den betriebssystemnahen 
Scheduler festgelegt, abgearbeitet und/oder jene Konfigurati- 
on, zu welcher zuvor die zugehSrige LOAD-Konf iguration ausge- 
fiihrt wurde. Vor der Ausfuhrung einer Verarbeitungs konf igura- 
tion, zu welcher zuvor eine LOAD-Konf iguration ausgefiihrt 
wurde, kann insbesondere abgetestet werden, z. B. durch Ab- 
f rage des Status der LOAD-Konf iguration oder des datenladen- 
den DMA- Kont rollers, ob mittlerweile die entsprechenden Daten 
in das Array eingestromt sind, also die Latenzzeit, wie sie 
typisch auftritt, verstrichen ist und/oder die Daten tatsach- 
15 lich vorliegen. 

Mit anderen Worten werden dann Latenzzeiten, wenn sie auftre- 
ten, weil z. B. Konf igurationen noch nicht einkonf iguriert 
sind,. Daten noch nicht geladen und/oder Daten noch nicht weg- 
20 geschrieben wurden, uberbruckt und/oder verdeckt, indem 

Threads, Hyperthreads und/oder Tasks ausgefiihrt werden, wel- 
che schon vorkonf iguriert sind und welche mit Daten arbeiten, 
die schon verftlgbar sind beziehungsweise die an Ressourcen 
weggeschrieben werden konnen, die fur das Wegschreiben be- 
25 reits zur Verfugung stehen. Auf diese Weise werden Latenzzei- 
ten weitgehend tiberdeckt und es wird, eine hinreichende An- 
zahl von per se auszuf uhrenden Threads, Hyperthreads und/oder 
Tasks unterstellt, eine praktisch 100%-ige Ausnutzung des Da- 
tenverarbeitungslogikzellenf eldes erreicht . 
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Es sei besonders erwahnt, dass durch das Vorsehen hinreichend 
vieler XPP-interner Speicherresourcen, die frei - z. B. durch 
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den Scheduler oder die CT - Threads zugeordnet werden, zu- 
gleich und/oder iiberlagernd die Cache- und/oder Schreibopera 
tionen mehrerer Threads durchgefuhrt werden kSnnen, was sich 
besonders positiv auf die Uberbruckung eventueller Latenzen 
auswirkt . 



Mit dem beschriebenen System beztiglich Datenstrom-Fahigkeit 
bei gleichzeitiger Ankopplung an eine Sequenziell-CPU und/ 
oder beztiglich der Ankopplung eines XPP-Array beziehungsweise 
Datenverarbeitungslogikzellenfeldes und simultan einer Se- 
quenziell-CPU an eine geeignete Schedulereinheit wie einen 
Konfigurationsmanager oder dergleichen lassen sich insbeson- 
dere ohne weiteres echtzeitf ahige Systeme realisie.ren. Zur 
Echtzeitfahigkeit muss gewahrleistet sein, dass auf eintref- 
fende Daten beziehungsweise Interrupts, die insbesondere das 
Dateneintreffen signalisieren, innerhalb einer in keinem Fall 
zu uberschreitenden Maximal zeit reagiert werden kann. Dies 
kann beispielsweise geschehen durch einen Taskwechsel auf ei- 
nen Interrupt hiri und/oder, beispielsweise bei priorisierten 
Interrupts, durch Festlegung, dass ein gegebener Interrupt 
momentan zu ignorieren ist, wobei auch dies innerhalb einer 
bestimmten Zeit festzulegen ist. Ein Taskwechsel bei derarti- 
gen echtzeitf ahigen Systemen wird typisch auf drei Arten er- 
folgen konnen, namlich entweder dann, wenn ein Task eine be- 
stimmte Zeit gelaufen ist (Timer-Prinzip) ,. bei Nichtzurverf ti- 
gungstehen einer Resource, sei es durch deren Blockade durch 
anderen Zugriff oder aufgrund von Latenzen beim Zugriff dar- 
auf, insbesondere in schreibender und/oder lesender Weise, 
das heifit bei Latenzen von Datenzugrif f en und/oder beim Auf- 
treten von Interrupts. 
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Es wird im ilbrigen darauf hingewiesen, dass insbesondere auch 
eine lauf zeitbegrenzte Konf iguration auf einer fur die Inter- 
ruptbearbeitung f reizugebenden bzw. 2U wechselnden Resource 
einen Watchdog bzw. Mitlauf zahler neu antriggern kann. 

Wahrend ansonsten explizit ausgeftihrt wurde, vgl. auch 
PACT 29 (DE 102 12 622.4, WO 03/081454), dass das Neuantrig- 
gern des Mitlauf zahlers bzw. Watchdogs zur Lauf zeiterhShung 
durch einen Task-switch unterbindbar ist, wird vorliegend ex- 
plizit offenbart, dass ein Interrupt gleichfalls, das heifit 
entsprechend einem Taskswitch, Mitlauf zahler - bzw. Watchdog 
- und Neutrigger blockierend wirken .kann, d. h. es kann in 
einem solchen Fall unterbunden werden, dass die Konf iguration 
durch Neuantriggern selbst ihre maximal mogliche Lauf zeit er- 
hoht . 

Mit der vorliegenden Erfindung kann die Echt zeitf ahigkeit ei- 
nes Datenverarbeitungslogikzellenfeldes nunmehr erreicht wer- 
den, indem eine oder mehrere von drei moglichen Varianten im- 
plement iert wird. 

Eine erste Vafiante besteht darin, dass innerhalb einer von 
dem Scheduler beziehungsweise der CT ansprechbaren Ressource 
ein Wechsel zur Abarbeitung beispielsweise eines Interrupts 
erfolgt. Sofern die Ansprechzeiten auf Interrupts Oder andere 
Anforderungen so groli sind, dass wahrend dieser Zeit eine 
Konfiguration ohne Unterbrechung noch abgearbeitet werden 
kann, ist dies unkritisch, zumal wahrend der Abarbeitung der 
aktuell laufenden Konfiguration auf jener Ressource, die fur 
die Abarbeitung des Interrupts zu wechseln ist, eine Konfigu- 
ration zur Interruptabarbeitung vorgeladen werden kann. Die 
Auswahl der vorabzuladenden Interrupt-bearbeitenden Konfigu- 
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ration ist z. B. durch die CT durchzufahren. Es ist moglich, 
die Laufzeit der Konf iguration auf der far die Interruptbear 
beitung freizugebenden bzw. zu wechselnden Ressource zu be- 
grenzen. Verwiesen wird dazu auf PACT29/PCT (PCT/DE03/000942) 

Bei Systemen, die schneller auf Interrupts reagieren mussen, 
kann es bevorzugt sein, eine einzelne Ressource, also bei- 
spielsweise eine separate XPP-Einheit und/oder Teile eines 
XPP-Feldes far eine solche Abarbeitung zu reservieren. Wenn 
dann ein schnell abzuarbeitender Interrupt auftritt, kann 
entweder eine fur besonders kritische Interrupts schon vorab 
vorgeladene Konf iguration abgearbeitet werden oder es wird 
sofort mit dem Laden einer Interrupt behandelnden Konf igura- 
tion in die reservierte Ressource begonnen. Eine Auswahl der 
jeweils fur den entsprechenden Interrupt erf orderlichen Kon- 
figuration ist durch entsprechende Triggerung, Waveabarbei- 
tung usw. moglich. 

Es sei im iibrigen erwahnt, dass es mit den schon beschriebe- 
nen Methoden ohne weiteres moglich ist, eine instantane Reak- 
tion auf einen Interrupt zu erhalten, indem tiber die Verwen- 
dung von LOAD/STORE-Konf igura t ionen eine Code-Reentranz er- 
reicht wird. Hierbei wird nach jeder datenbearbeitenden Kon- 
figuration oder zu gegebenen Zeiten, beispielsweise alle ftlnf 
Oder zehn Konf igurationen eine STORE-Konf iguration ausgefiihrt 
und dann eine LOAD-Konf iguration unter Zugriff auf jene Spei- 
cherbereiche ausgefuhrt, in die zuvor weggeschrieben wurde. 
Wenn sichergestellt wird, dass die von der STORE-Konf igura- 
tion benutzten Speicherbereiche so lange unberuhrt bleiben, 
bis durch Fortschreiten im Task eine weitere Konf iguration 
samtliche relevanten Inf ormationen (Zustande, Daten) wegge- 
schrieben hat, ist sichergestellt, dass bei Wiederladen, also 
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Wiedereintritt in eine zuvor bereits begonnene, aber nicht zu 
Ende geftihrte Konf iguration oder Konf igurationskette wieder 
dieselben Bedingungen erhalten werden. Eine solche Zwischen- 
schaltung von LOAD/STORE-Konf igurationen unter simultanem 
5 Schutz von noch nicht veralteten STORE-Speicherbereichen 

lasst sich automatisch ohne zusatzlichen Programmier auf wand 
sehr einfach generieren, z. B. von einem Compiler. Dort kann 
die Ressourcenreservierung gegebenenf alls vorteilhaft sein. 
Das bei der Ressourcenreservierung und/oder in anderen Fallen 
10 auf zumindest eine Menge hochpriorisierter Interrupts durch 
Vorabladen von bestimmten Konfigurationen reagiert werden 
kann, sei noch einmal erwahnt. 
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Eine weitere, besonders bevorzugte Variante der Reaktion auf 
Interrupts besteht dann, wenn zumindest eine der ansprechba- 
ren Ressourcen eine Sequenziell-CPU ist, darin, auf dieser 
eine Interrupt-Routine abzuarbeiten, in welcher wiederum Code 
far das Datenverarbeitungslogikzellenfeld verboten ist. Mit 
anderen Worten wird eine zeitkritische Interrupt-Routine aus- 
schliefilich auf einer Sequenziell-CPU abgearbeitet , ohne dass 
XPP-Datenverarbeitungsschritte aufgerufen werden. Dies garan- 
tiert, dass der Verarbeitungsvorgang auf dem Datenverarbei- 
tungslogikzellenfeld nicht zu unterbrechen ist und es kann 
dann eine Weiterabarbeitung auf diesem Datenverarbeitungslo- 
25 gikzellenfeld nach einem Taskswitch erfolgen. Obwohl damit 
die eigentliche Interrupt-Routine keinen XPP-Code besitzt, 
kann dennoch dafur gesorgt werden, dass auf einen Interrupt 
hin zu einem spateren, nicht mehr echtzeitrelevanten Zeit- 
punkt mit der XPP auf einen durch einen Interrupt und/oder 
eine Echtzeitanf orderung erfassten Zustand und/oder Daten un- 
ter Verwendung des Datenverarbeitungslogikzellenf eldes rea- 
giert werden kann. 
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10 



Datenverarbeitungsvorrichtung mit einem Datenverarbei- 
tungslogikzellenfeld und zumindest einer Sequenziell-CPU, 
dadurch gekennzeichnet, dass eine Ankopplung der Sequen- 
ziell-CPU und des Datenverarbeitungslogikzellenf eldes zum 
Datenaustausch in insbesondere blockweiser Form durch zu 
einem Cache-Speicher ftthrende Leitungen moglich ist. 



2. Verfahren zum Betrieb einer rekonf igurierbaren Einheit 

mit Laufzeit beschrankten Konf igurationen, worin die Kon- 
figurationen ihre maximal zulasaige Laufzeit erhShen kSn- 
nen insbesondere durch Antriggern eines Mitlauf zahlers, 
dadurch gekennzeichnet, dass eine Konf igurationslauf zei- 
15 terhQhung durch die Konf iguration im Ansprechen auf einen 

Interrupt unterbunden wird. 
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